查看原文
其他

从万众期待到口碑扑街!唐探3令人失望,用Python来分析一下大家的评论

IT服务圈儿 2022-09-10

The following article is from 菜鸟学Python Author 菜鸟哥


作者丨菜鸟哥

来源丨经授权转自 菜鸟学Python(ID:cainiao_xueyuan)


    文末送书    


唐人街探案系列题材,凭借着演员出色的表演,以及精彩的探案故事,近些年来成为了一部很不错的搞笑探案类的影片,取得了票房和口碑的双丰。

但是随着唐探3在全国影院的全面上线,大家对于这部电影的评价却是非常的出乎意料,豆瓣评分只有区区6.1分。很多影评表示非常的失望。小编从豆瓣和猫眼两个网站用Python获取了几千条影评数据,一起来看看大家是怎么说的吧。


01.数据获取
首先我们分别从豆瓣和猫眼网站中获取网站的公开数据,对于数据的获取,由于两个网站都存在较强的反爬虫机制,这里我们以猫眼为例,为大家展示一下主要的程序。

爬虫的程序其实很简单,就是构造一个url用requests去请求,这样类似的程序其实前面写影评的时候,菜鸟哥写很多,这里就不赘述。

然后主体的程序我们用循环遍历解析每个网页,然后提取短评即可。

上述的程序中,通过self.save_data函数来调用self.parse_data函数解析url,而在self.parse_data函数中,通过解析请求网页所获得的json数据,提取我们想要抓取的评论、用户所在城市等信息。对于豆瓣、猫眼所抓取的数据,如下图所示:


02.数据分析
获取到数据之后,接下来针对获取到的数据进行分析,看一下包含哪些信息。首先我们来看一下豆瓣评论,唐探3上映时间是大年初一的早晨八点,由于大家的评论时间大都集中在大年初一,所以我们就来看一下,这一天当中时间的分布信息。

上述的程序首先提取了评论时间中的小时信息,然后利用pyecharts中的Line类进行可视化展示。

从大家的评论时间可以看出,绝大多数的评论者都是看完了唐探三后立即进行评论,因此可以看到评论的时间是在上午的十点到十一点时间最为集中。那豆瓣中大家对于唐探3的评分如何呢?

上图程序中,我们利用饼形图来进行豆瓣评分的可视化展示。

上图中,可以看到,超过了66%的影评者给出了“较差”或者“很差”的评价,而给出力荐和推荐的影评者不到20%。看来这一次唐探在豆瓣的评分真的是扑街了。光有评分还不够,我们通过影评词云的展示,来看看大家对于这部电影的评价吧。

可以看到,豆瓣影评者对于唐探三的评论中,几乎没有关于“喜欢”、“好看”等等关键词,反而出现了“尴尬”、“最后”、“恶心”等关键词。


03.猫眼的数据

看完了豆瓣影评者的评论,接下来我们把目光聚焦到猫眼上来,看看猫眼的影评者所给出的评价是如何的吧。1).打分情况作为同豆瓣的对比信息,我们来看一下猫眼影评者在影片打分上的分布情况吧。

如上图所示,可以看到,猫眼评分中绝大多数的人给出的评价在4.5以上,而得分在1.5分以下的占比非常少。这样的打分情况跟豆瓣评分简直是两个极端的存在。


2).城市分布

对于猫眼的用户,他们的所在的城市分布是如何的呢?

通过对于猫眼影评者城市的信息统计,并利用Geo类进行可视化展示,其结果如下图所示。

通过上图可以看到,评论者在全国的范围内还是大多都集中在东部沿海和成都,重庆等方向,其中北上广等一线城市的影评者分布更为密集。3).关键词对于猫眼影评者来说,既然评分很高,那么他们的影评词云关键词是什么呢?

可以看到,与豆瓣评论者明显不同的是,猫眼影评者的关键词都是关于“好看”、“不错”、“搞笑”‘、“可以”等积极的评价,与猫眼高评分相呼应。


从豆瓣和猫眼中影评者的评论中,关于唐探三有着不同的评价,究竟唐探三是否能够得到大家的认可呢?欢迎有看过的小伙伴在下方留言,吱一声。


👇👇👇留言的朋友均有机会获得书籍呦~


今日书单 | 包邮送

推荐理由:通过底层架构原理+大量即用型优质代码+行业一线公司研究案例,手把手教你构建大数据场景下高并发、高性能、高可用的异步、非阻塞分布式系统。

推荐理由:理论与实践相结合,提高应用能力 算法与编程相结合,解决实际问题 数学思维 编程实践,可多方法优化求解问题 每个案例均有源代码,扫码即可下载应用。
推荐理由:本书坚持以实例为主,理论为辅的路线,从 Python 基础、爬虫开发常用网络请求库,到爬虫框架使用和分布式爬虫设计,以及*后的数据存储、分析、实战训练等,覆盖了爬虫项目开发阶段的整个生命周期。
推荐理由:涵盖图像预处理、图像的形态学处理、颜色与纹理、图像分割与分类、立体视觉、深度学习、表面检测、完整性检测、模板匹配、三维定位等各种机器视觉图像处理技术和检测技术。


活动规则:


我们将从精选留言中随机抽取 8名 伙伴赠书,中奖者可在上方书单中任选一本图书,我们包邮赠送。书籍有限,中奖后先选先得。


  • 《Netty原理解析与开发实战》 *2

  • 《Python最优化算法实战》 *2

  • 《Python网络爬虫开发从入门]到精通》 *2

  • 《Halcon机器视觉算法原理与编程实战》 *2


小锦鲤玩法:

  • 本次小锦鲤我们将从精选留言中随机抽取 2~5名 小锦鲤,赠送红包 6.6元


开奖后圈儿会给中奖者发送留言,请大家凭留言截图添加圈儿微信号:jb_quaner领取


留言要求:

  • 内容与本文核心信息相关

  • 留想要的书籍名称

  • 每人仅限精选一条留言(用心留言更容易上墙)

  • 为了大家都有机会中奖,每个小伙伴每个星期只能中一次奖哦~


截止时间: 2021 年 2 月 24 日 16:00 整

兑奖时效:一周,收到留言请尽快联系圈儿。


每天 17:30 不见不散!


1、0.052秒打开100GB数据!这个Python开源库牛X了

2、美团某程序员爆料:绩效背c的都要签pip!网友:pip就是变相劝退!

3、阿里 Ant Design 源码仓库在 GitHub “消失”了

4、“基础数学没用”,百年名校要裁撤数学系补贴AI研究,4000多学者联合抗议

识别关注我们

了解更多精彩内容

点分享

点点赞

点在看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存